确保加固学习的安全性(RL)对于其在现实世界应用中的部署至关重要。然而,在外观期间管理奖励与安全之间的权衡提出了重大挑战。通过政策调整来提高奖励绩效可能会对安全性能进行不利影响。在这项研究中,我们旨在通过利用梯度操纵理论来解决这种矛盾的关系。最初,我们分析了奖励与安全梯度之间的冲突。随后,我们通过提出一种软转换策略优化方法来解决奖励和安全优化之间的平衡,为此我们提供了综合分析。基于我们的理论检查,我们提供了一个安全的RL框架来克服上述挑战,并开发了一个安全穆约科克的基准,以评估安全RL算法的性能。最后,我们评估了我们方法对安全穆霍科基准和流行的安全RL基准Omnisafe的有效性。的结果表明,在平衡奖励和安全优化方面,我们的算法优于几个最先进的基线。
![arxiv:2405.01677V2 [CS.LG] 2024年6月7日PDF文件第1页](/bimg/7/7a79ac21cf81fd14581c7f543c8acc90982ceb6e.webp)
![arxiv:2405.01677V2 [CS.LG] 2024年6月7日PDF文件第2页](/bimg/4/47d074d4254a17d0f362a3496d254e4b65442c11.webp)
![arxiv:2405.01677V2 [CS.LG] 2024年6月7日PDF文件第3页](/bimg/f/f71c34e3550fa7b8be581ac90d63b5aa8c2b153c.webp)
![arxiv:2405.01677V2 [CS.LG] 2024年6月7日PDF文件第4页](/bimg/9/9ed3c538b1b374c7a170ce8911a6e751f71159b8.webp)
![arxiv:2405.01677V2 [CS.LG] 2024年6月7日PDF文件第5页](/bimg/3/31ce41b4eab7bb5970492a73ab59ff46004a85e3.webp)
